引言
了解自然语言处理的最新进展对NLP爱好者来说至关重要。今天给大家整理了十篇最近发布的文章,这些论文深入研究了自然语言处理的各个方面,其中「主要包括生成式搜索引擎、大模型检索增强、代码prompt研究、模型记忆探测、模型学习效率提升、LLMs毒性分析等」。需要论文原文的小伙伴可后台回复联系作者。
生成式搜索引擎
生成式搜索引擎的目的是直接生成用户查询内容和联机引用。这类模型的一个关键特征是可验证性,这意味着它们应该提供全面而准确的引用。在一项研究中,「研究人员对四种流行的生成式搜索引擎——BingChat、NeevaAI、Perplexity AI和YouChat——进行了人工评估」,对来自不同来源的不同查询进行了审核,比如谷歌用户的历史查询和Reddit上的开放式问题。虽然由这些引擎生成的回复是流畅的,并且看起来信息量很大,但它们经常包含无依据的陈述和不准确的引用。「平均而言,只有51.5%的生成句子得到了引用的完全支持,只有74.5%的引用准确地支持了与之相关的句子」。这种级别的性能与可能用作主要信息搜索工具的系统有关,特别是考虑到它们的可靠性。这项研究的目的是激发可信赖的生成搜索引擎的进一步发展,并帮助研究人员和用户更好地了解现有商业系统的局限性。
检索增强LM
在这篇研究论文中,作者探讨了大型语言模型 (LM) 在涉及需要广泛世界知识的任务时的局限性。通过对10种不同模型和四种增强方法的广泛实验,作者使用了一个新的开放域QA数据集PopQA,其中包含14,000个问题,以了解LM在记忆事实知识方面的优势和劣势。他们发现LM在处理不太流行的事实知识时遇到困难,并且增加这些模型的大小并不会显着提高对晦涩事实的记忆。为了解决这些限制,「作者证明了检索增强LM的性能大大优于更大的LM,而无辅助LM仅在涉及高人气实体的问题上具有竞争力」。然后,研究人员提出了一种简单但有效的方法来创建强大且高效的检索增强 LM,仅在必要时访问非参数存储器。这种方法不仅提高了模型的性能,而且降低了推理成本,使其成为克服 LM 在需要深入了解世界知识的任务中的局限性的有前途的解决方案。
检索自回归LMs
大型仅解码器语言模型 (LM) 可以显着改善检索的复杂度,例如RETRO。然而,对文本生成质量和下游任务准确性的影响仍然不确定,留下了一个问题:我们是否应该使用检索来预训练大型自回归LM?为了解决这个问题,研究人员进行了一项综合研究,比较了不同阶段的可扩展预训练检索增强LM (RETRO)、标准GPT和检索增强GPT。他们成功地再现了多达95亿个参数的 RETRO,同时检索了3300 亿个标记的文本语料库。该研究成果发现:(i) 在使用无毒检索数据库时,RETRO在文本生成方面优于GPT,事实准确性适度较高,毒性略低,(ii) RETRO在知识密集型任务上的表现明显优于GPT LM Evaluation Harness 基准测试,但在其他任务上的表现相似。此外,研究人员引入了一个简单的变体RETRO++,它极大地改善了开放域 QA 结果,并且在不同模型大小上优于检索增强GPT。带检索的预训练自回归LMs是未来基础模型的一个有希望的方向。
代码Prompt研究
在这篇论文中,研究人员「探讨了代码提示是否是与一般语言模型交互的最佳方式,而不是仅仅针对结构化推理任务」。他们使用三种流行的GPT模型(davinci、code-davinci-002 和 text-davinci-002)和广泛的任务(例如问答、情感分析和摘要)进行了比较。有趣的是,结果表明,除了少数例外,代码提示并不总是优于文本提示。研究还表明,代码提示的风格对某些任务的性能有重大影响,但不是全部。此外,根据文本指令微调模型可以提高代码提示的相对性能。这项研究强调了进一步探索的必要性,以优化人类与语言模型之间的交互,以及提示风格在语言模型在各种任务上的表现有效性方面的重要性。
模型发散
在这项研究中,作者提出了「一个理论来解释在大型语言模型训练过程中观察到的先前无法解释的发散行为」,这种现象出现的主要原因是在训练过程中应用了Adamyo优化算法的结果。据观察,Adam 可以达到参数更新向量具有较大范数并且与训练损失的下降方向基本不相关的状态,最终导致发散。作者指出,这种现象更有可能在大批量深度模型的训练中观察到,这在大规模语言模型训练中很典型。为了支持他们的理论,他们展示了来自不同规模的语言模型训练运行的观察结果,包括70亿、300亿、650亿和5460亿个参数。这些观察突出了 Adam 优化算法在大型语言模型训练过程中导致发散行为的作用。
模型记忆探测
在最近的一项研究中,研究人员探讨了LLMs的记忆问题,「重点关注这些模型记忆敏感数据(如个人身份信息(PII))的不良后果。一个重要的挑战在于如何预测模型在训练期间的哪些序列会被记忆,因为不好的记忆可能影响模型的效果」。为了解决这个问题,研究人员使用Pythia模型套件进行了实验,旨在从低计算的试运行中推断记忆行为。研究结果表明,与较小的训练模型相比,中间检查点可以更好地预测模型的记忆行为。此外,研究人员对不同模型和数据的记忆分数分布提供了新的见解。这些发现为正在进行的关于与部署大型语言模型相关的安全性和安全性问题的讨论提供了有价值的信息,并提供了潜在的解决方案来减轻不必要的记忆风险。
视觉语言模型加速
在本文中,「作者介绍了用于加速和稳定大型视觉语言模型训练的新技术」。第一种方法称为 SwitchBack,是用于int8量化训练的线性层,可将训练过程加速13-25%,同时将性能保持在1B参数CLIP ViT-Huge模型的bfloat16训练的0.1个百分点以内。这是迄今为止最大的int8训练。虽然主要关注int8,但本文还通过模拟研究了float8 训练,证明如果网络经过训练和初始化以阻止大的特征量级,标准技术可能是有效的。这是通过使用带零的层级初始化来实现的。为了稳定训练,作者检查了损失尖峰并发现在平方梯度被他们的 AdamW 二阶矩估计器低估后,它们始终出现 1-8 次迭代。基于这一观察,他们推荐了一种名为 StableAdamW 的 AdamW-Adafactor 混合体。这种方法可以防止在 CLIP ViT-Huge 模型训练期间出现损失峰值,并且优于梯度裁剪。通过利用这些技术,研究人员可以改进大型语言视觉模型的训练过程,使其更快、更稳定。
迁移学习效率提升
作者提出了「条件适配器(CoDA)方法,该方法旨在从参数使用和推理速度两方面提高迁移学习效率」。与传统的适配器方法不同,CoDA利用条件计算在准确性和速度之间取得平衡。通过将稀疏激活和最小新参数合并到现有的密集预训练模型中,然后是轻量级训练阶段,CoDA成为一种高效的知识转移机制。实验结果表明,CoDA在各种语言、视觉和语音任务中优于最先进的适配器方法。在推理速度和参数效率相同的情况下,CoDA在几乎没有精度损失的情况下实现了这种改进。这证明了CoDA在不同应用中优化迁移学习过程的潜力。
毒性评估
随着时间的推移,对于模型的毒性感知也在的演变,并且还与地域、文化背景相关。「用于检测毒性的商业API(如Perspective API)也不是静态的,而是经常重新训练以解决之前忽视的毒性内容」。本文评估了这些变化对可重复性研究成果的影响,比较了抑制毒性的模型和方法的相对优点。研究结果表明,依靠遗传自动毒性评分来比较模型和技术的研究可能会产生不准确的结果。根据最新版本的API,从广受欢迎的基准HELM中对所有模型的毒性进行重新评分,产生了不同的结果排名。最终作者建议随时间的变化,在研究过程中对同类模型进行比较时要谨慎,并建议采用更有条理的方法来评估毒性。
涌现能力
在最近的研究中,有很多关于展示涌现能力的大型语言模型的讨论。这些能力令人着迷,「因为它们似乎随着模型的扩大而突然出现且不可预测」。然而,本文为这些新兴能力提供了另一种解释。「作者认为,这些感知能力实际上可能是研究人员在分析特定任务和模型族的固定模型输出时选择指标的结果」。换句话说,他们认为涌现能力的主张可能是分析本身的产物,而不是模型行为随着规模的扩大而发生的实际变化。为了支持这种替代解释,研究人员提出了一个简单的数学模型,并以三种不同的方式对其进行了测试。首先,他们检查了指标选择对 InstructGPT/GPT-3 系列模型的影响,以处理具有自称紧急能力的任务。其次,他们通过对指标选择做出预测,对 BIG-Bench 上的新兴能力进行了荟萃分析。第三,他们展示了相似的度量决策如何暗示各种深度网络架构(如卷积、自动编码器和转换器)中视觉任务的明显涌现能力。在所有三项分析中,研究人员发现了强有力的证据,表明涌现能力实际上可能并不是扩展 AI 模型的基本属性,这表明我们可能需要重新考虑对这些现象的理解。
推荐阅读
[1]一文了解大型语言模型的上下文学习能力(ICL)
[2]三种Prompt方法大幅提升大模型LLMs推理能力!
[3]中文命名实体识别(NER)数据集大盘点(全)
[4]大型语言模型落地对话系统,该从哪些方面入手?
[5]中文通用开源指令数据集(COIG):数据多样,质量高
[6]MPT-7B:可商用的开源模型,效果堪比LLaMA-7B
点击下方链接🔗关注我们